Google planea integrar herramientas de dibujo y anotación directamente en la interfaz web de Gemini

Google parece estar trabajando en una actualización significativa para la versión web de su inteligencia artificial, Gemini, enfocada en mejorar el flujo de trabajo con imágenes. Según una filtración compartida por el perfil TestingCatalog en X, la compañía está desarrollando herramientas de anotación nativas que permitirán a los usuarios dibujar, rodear elementos y añadir capas de texto sobre las imágenes generadas sin necesidad de abandonar la plataforma.

Hasta el momento, aunque los modelos recientes como el Nano Banana Pro han elevado considerablemente la calidad visual y las funciones de edición de Gemini, el proceso de realizar correcciones específicas seguía presentando fricciones. Si un usuario necesitaba resaltar un área o dejar una nota visual, debía exportar el archivo y utilizar una aplicación de edición externa. Esta nueva funcionalidad busca eliminar ese paso intermedio, centralizando todo el proceso creativo en el navegador.

Precisión para editar imágenes en Gemini y reducir la ambigüedad de los prompts

Más allá de las simples notas, las filtraciones sugieren que estas herramientas de marcado tendrán una función operativa crucial: la edición basada en indicaciones visuales. En lugar de depender exclusivamente de descripciones de texto largas y a veces imprecisas para solicitar cambios, los usuarios podrían señalar físicamente una parte de la imagen y ordenar a la IA que actúe sobre esa zona concreta.

El código de la aplicación móvil de Gemini ya había mostrado previamente indicios de elementos de interfaz relacionados con el marcado, pero ahora estas capacidades parecen estar trasladándose a la experiencia de escritorio. El sistema funcionaría mediante ventanas emergentes que vincularían las anotaciones visuales con comandos de edición localizados.

Te interesa 👉 Cómo editar fotos con Nano Banana de forma gratis e ilimitada

Esta integración aborda uno de los problemas técnicos más comunes en las herramientas de generación de imágenes actuales: la interpretación errónea de las instrucciones por parte de los modelos. Al permitir marcar visualmente un detalle pequeño o superpuesto, se proporciona a Gemini una guía clara, reduciendo la dependencia de la adivinanza por parte del algoritmo. De todos modos, hace tiempo que herramientas como ChatGPT cuentan con este tipo de herramientas de selección y no siempre funcionan como se esperaría.

Fuente